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摘要 : 【 目的 ] 识别 论文 标题 中 的 研究 对 象 属性 实例 ,试图 利用 少量 标注 样本 ， 最 大 限度 地 提高 研究 对 象 识别 的 
准确 率 。[ 方法 】 分析 科技 文献 中 研究 对 象 的 语法 特征 , 利用 少量 样本 基于 条 件 随机 场 序列 标注 算法 ,对 研究 对 
象 进 行 识 别 和 抽取 ,并 引入 基于 未 标注 数据 的 主动 学 习 的 迭代 标 引 体系 , 提高 研究 对 象 识别 的 准确 率 。[ 结果 】 
能 够 高 效 利 用 未 标注 数据 ， 并 最 大 限度 地 提高 研究 对 象 识 别 的 准确 率 , 标注 准确 率 达 到 78.3%。[ 局 限 ] 算法 运 
行 效率 有 待 进 一 步 优化 。[ 结论 】 对 科技 文献 中 研究 对 象 属 性 实例 具有 较 好 的 识别 效果 , 为 进一步 挖掘 科技 文献 


中 的 知识 体系 和 结构 打下 基础 。 
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条 件 随 机 场 ”迭代 标 引 体系 “主动 学 习 


1 3 引 


科学 论文 是 科研 工作 者 在 某 一 学 术 课题 上 , 关于 
新 的 科学 研究 成 果 或 创新 见解 的 文字 体现 , 是 由 作者 
通过 书面 撰写 , 总 结 提炼 研究 工作 的 展现 形式 。 科 学 
论文 一 般 包括 不 同 的 研究 元 素 ， 如 研究 背景 、 研 究 对 
象 、 研 究 过 程 、 研 究 方法 、 研 究 结论 等 。 其 中 论文 的 
研究 对 象 指 论文 主要 研究 目标 的 核心 主体 ,能 高 效 清 
晰 定位 出 对 应 文章 的 关注 面 , 包括 客观 事物 、 理 论 、 
事件 、 过 程 、 关 系 等 属性 实例 。 研 究 对 象 的 提取 能 够 
将 论文 的 主要 研究 目标 以 直观 的 形式 展现 出 来 ,有 助 
于 读者 快速 掌握 这 一 对 象 的 相关 信息 , 方便 检索 和 对 
比 相关 研究 的 内 容 。 

本 文 针 对 论文 中 的 研究 对 象 属性 实例 进行 识别 和 
提取 , 并 提出 基于 主动 学 习 的 标 引 体系 ,使 用 少量 已 
标注 样本 进行 研究 对 象 属性 标注 ,并 充分 利用 大 量 未 
标注 数据 , 在 节省 人 工 标注 成 本 的 基础 上 ,最 大 限度 
地 提高 研究 对 象 提取 的 准确 率 ， 此 体系 可 为 论文 知识 


了 中 


结构 的 自动 抽取 和 组 织 管理 提供 借鉴 。 
2 相关 研究 


论文 研究 对 象 的 抽取 属于 属性 抽取 的 研究 范畴 ， 
属性 抽取 隶属 于 细 粒 度 知识 抽取 的 研究 范畴 。 就 抽取 
对 象 类 型 而 言 ， 属 性 抽取 主要 分 为 对 实体 的 属性 抽取 ， 
如 和 人物 站、 物品 中 I 等， 以 及 对 概念 的 属性 抽取 1。 
而 对 概念 的 属性 抽取 又 可 分 为 通俗 概念 的 属性 抽取 门 
和 学 术 概 念 的 属性 抽取 ml。 本 文 抽取 目标 是 医学 领域 
论文 , 待 抽取 对 象 包括 学 术 概 念 的 属性 实例 ,也 包括 
一 系列 医学 命名 实体 5 组 成 的 目标 对 象 ,如 疾病 、 药 
物 、 治 疗 方法 等 。 因 此 , 本 文 以 属性 抽取 为 基本 思路 ， 
从 学 术 概念 属性 抽取 和 命名 实体 识别 两 方面 , 对 相关 
研究 进行 介绍 。 在 领域 文章 中 进行 属性 抽取 时 , 采用 
的 方法 主要 包括 基于 规则 的 方法 、 机 器 学 习 的 方法 以 
及 两 者 相 结合 的 方法 。 
2.1 基于 规则 的 方法 

采用 手工 或 者 自动 构建 的 规则 , 识别 关系 与 概念 
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之 间 的 语言 模式 并 依 此 制定 抽取 规则 。Fundel 等 "”" 制 
定 候选 关系 的 规则 ， 从 Medline 摘要 中 抽取 基因 -蛋白 
质 的 关系 ,其 利用 基于 规则 的 方法 ,并 制定 过 滤 方 法 
对 结果 进行 过 滤 ,， 达到 属性 抽取 的 目的 。 但 由 于 候选 
关系 是 由 人 工 选 定 的 ,必定 存在 局 限 性 ,另外 受 现 
有 分 词 工具 效果 的 影响 ， 准 确 率 也 会 有 所 影响 。 张 办 
等 "利用 关联 规则 对 医学 数据 进行 知识 抽取 ,分 析 词 
组 配 模 式 , 利用 文献 资料 抽取 出 4 种 肿瘤 药物 的 主 一 
主题 词 的 语义 关系 搭配 模式 , 利用 这 些 关 系 模式 达到 
属性 关系 抽取 的 目的 。 
2.2 ”机 器 学 习 的 方法 

将 属性 抽取 问题 转化 为 分 类 问题 或 标注 问题 , 需 
选取 特定 特征 并 利用 预先 标注 好 的 数据 训练 模型 。 
CRFs 是 一 种 概率 图 模型 能够 较 好 地 表达 元 素 之 
间 的 长 距离 依赖 ,从 模型 中 抽取 领域 知识 ,避免 最 大 
炳 隐 马 尔 可 夫 模 型 (MEMM) 和 其 他 的 条 件 马 尔 可 夫 模 
型 会 出 现 的 标识 偏 置 问题 。 备 洪 宇 等 "以 《伤寒 论 》 
为 对 象 , 采用 条 件 随机 场 的 术语 自动 识别 方法 ,对 特 
征 进行 对 比 实验 , 建立 中 医术 语 的 自动 识别 模型 。 张 
帆 等 i 借助 领域 本 体 或 词 表 识 别 出 的 具有 层级 关系 的 
主题 词 , 识别 创新 点 句 中 主题 对 应 的 属性 实例 ,并 采 
用 一 种 语义 标注 、 依 存 句 法 分 析 以 及 领域 本 体 属性 类 
相 结 合 的 方法 , 提高 属性 实例 识别 的 准确 率 。 
2.3 ”规则 和 机 器 学 习 相 结 合 的 方法 

概念 或 命名 实体 属性 抽取 在 其 他 学 科 中 也 有 较 广 
泛 应 用 。 在 自然 科学 领域 中 ， 如 计算 机 [5 、 自 然 学 [9 、 
分 子 材料 学 " "等 领域 , 通常 属性 抽取 在 本 体 构 建 、 问 
答 系 统 、 自 动 摘要 系统 中 起 重要 作用 。Pham 等 ' 利 
用 基于 涟 波 下 降 规则 的 方法 建立 文本 标注 规则 ,并 利 
用 正则 表达 式 书写 的 规则 进行 过 滤 ， 通过 分 析 不 同 
标注 类 别 的 具体 特征 ,对 分 类 结果 进行 判定 。Pechsiri 
等 (7 的 研究 对 象 是 因果 的 属性 关系 , 分 析 因 果 关 系 
中 的 动词 连接 词语 , 对 因果 关系 进行 动词 、 原 因 、 结 
果 的 标注 ,并 利用 贝 叶 斯 分 类 融 对 动词 连接 的 描述 是 
否 是 原因 和 结果 进行 判断 。Xiao 等 中 研究 纳米 材料 对 
环境 的 影响 ,预先 选 定 与 纳米 毒害 性 相关 的 6 种 实体 
以 及 3 种 属性 ,以 段落 为 抽取 对 象 ,提取 实体 与 属性 
之 间 的 关系 以 及 属性 值 。 
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言 描述 特征 以 及 位 置 分 布 特 征 等 。 丁 君 军 等 中 通过 人 
工 构建 规则 的 方法 , 形成 属性 抽取 的 九 大 类 描述 规则 ， 
并 针对 《情报 学 报 》 的 发 表 论文 ,进行 学 术 文 献 中 学 
术 概 念 的 抽取 。 程 紫光 [等 利用 Bootstrapping 方法 的 
和 内 模式 的 命名 实体 识别 方法 , 针对 特定 领域 实现 半 
监督 的 命名 实体 识别 。 

机 咒 学 习 的 方法 在 训练 数据 的 过 程 上 ， 又 可 分 为 
监督 学 习 握 和、 半 监 督学 习 王 汪 、 无 监督 学 习 的 训练 
方法 。 监 督学 习 的 方法 是 完全 利用 人 工 标注 的 训练 数 
据 ， 对 模型 参数 进行 估计 ， 从 而 达到 对 未 知 数据 的 预 
测 , 不 仅 需 要 大 量 标注 数据 作 训练 集 以 保证 泛 化 能 
同时 标注 也 非常 耗 时 耗 力 。 特 别 是 对 于 特定 学 术 领 域 
的 标注 , 通常 需要 标注 者 有 一 定 的 背景 知识 。 无 监督 
学 习 无 需 人 工 标 注 数 据 , 采用 规则 及 其 他 方法 抽取 属 
性 集合 或 关系 集合 , 往往 由 于 规则 的 限制 导致 效果 不 
好 。 半 监督 的 方法 是 采用 两 种 方法 的 结合 ,充分 发 挥 
两 种 方法 的 优点 , 能 够 节省 人 工 标注 的 成 本 ,同时 提 
高 属性 抽取 的 准确 率 。 

背 鉴 关 于 属性 抽取 相关 的 成 果 , 参考 了 机 器 学 习 ， 
尤其 是 主动 学 习 和 CRFs 序列 标注 的 一 些 研究 成 果 ， 
初步 探讨 如 何 使 用 少量 已 标注 样本 进行 研究 对 象 属性 
标注 ; 如 何 通过 冰 值 估计 ， 从 大 量 未 标注 集合 中 选择 
有 价值 的 样本 进行 人 工 标注 , 并 尽 可 能 节省 人 工 成 本 ， 
取得 尽 可 能 好 的 效果 。 通 过 构建 CRFs 的 基于 字 的 特 
征 ， 训练 模型 ， 从 而 对 论文 研究 对 象 属性 进行 抽取 ， 
并 利用 主动 学 习 方法 进行 闽 值 估计 ， 对 数据 集 进 行人 
工 标记 ， 以 提高 准确 率 。 


3 研究 对 象 生成 标 引 体系 


论文 标题 是 最 能 简明 扼要 地 反映 论文 中 最 重要 的 
研究 内 容 的 逻辑 组 合 , 包括 能 够 深刻 揭示 文章 主要 研 
究 内 容 的 关键 词语 , 以 及 可 以 提供 检索 的 特定 实用 信 
息 。 因 此 , 论文 标题 是 提取 研究 对 象 的 主要 目标 。 

针对 论文 标题 中 具有 代表 性 意义 的 概念 属性 ,对 
论文 标题 中 的 研究 对 象 进行 提取 。 通 过 分 析 论 文 标题 
中 研究 对 象 的 语义 特点 和 位 置 特征 ,对 论文 标题 进行 
语义 标注 , 同时 采用 主动 学 习 的 标注 生成 体系 , 使 用 
少量 已 标注 样本 进行 研究 对 象 属性 标注 ， 充 分 利用 大 
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在 社会 科学 领域 , 部 分 学 术 概 念 属性 较为 抽象 或 
具有 主观 性 已 抽取 前 需 确定 属性 的 各 类 特征 ， 如 语 
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量 未 标注 数据 ， 最 大 限度 提高 生成 标注 的 准确 率 ， 并 
与 基于 隐 马 尔 可 夫 模 型 (HMMD) 的 提取 方法 进行 比较 。 


3.1 利用 规则 的 策略 进行 研究 对 象 提取 

针对 医学 类 中 文学 术 论文 , 分 析 论 文 题目 和 研究 
对 象 , 从 论文 题目 中 抽取 子 序 列 串 组 成 的 单个 或 多 个 
连续 字符 作成 研究 对 象 。 

基于 规则 的 研究 对 象 提取 策略 , 采用 的 方法 是 利 
用 规则 的 方法 提取 研究 对 象 , 由 语 料 的 标注 结果 发 现 ， 
大 部 分 研究 对 象 都 是 从 题目 中 提取 医学 类 专业 词语 或 
者 关系 , 去掉 大 部 分 党 用 词语 ,利用 连接 词 .介词 等 切 
分 而 成 的 子 串 , 所 以 考虑 建立 常用 词语 表 , 利用 常用 
词语 表 , 去 除 论文 题目 中 的 常用 词语 , 并 利用 介词 、 连 
词 、 助 词 等 无 实际 意义 的 词语 ,对 论文 题目 进行 切割 ， 
提取 得 到 一 个 或 多 个 研究 对 象 。 同 时 编写 正则 表达 式 对 
模型 标 引 有 误 的 具有 明显 句 式 结构 的 标题 进行 过 滤 。 

此 方法 取得 了 一 定 的 效果 , 使 得 利用 介词 、 连 词 、 
助词 等 切 分 的 一 部 分 数据 能 够 被 正确 分 割 开 。 其 效果 
的 局 限 性 及 原因 如 表 1 所 示 : 

表 1 利用 规则 的 策略 的 局 限 性 
原因 解释 


常用 词 的 ”有 些 词语 在 一 部 分 标题 中 属于 常用 词语 ,在 男 一 
定义 不 明 ”部 分 中 却 不 是 常用 词语 。 所 以 利用 词典 匹配 的 方法 
确 达到 的 效果 也 是 有 限 的 。 


利用 介词 、 连 词 、 助 词 等 进行 切割 , 由 于 没有 考虑 

没有 考虑 词语 的 前 后 语义 ， 当 两 个 连接 词语 同时 修饰 一 个 

词语 的 前 ”词语 时 , 该 方法 并 不 有 效 。 而 且 研 究 对 象 的 提取 

后 语义 。” 于 句 式 的 多 样 性 ,往往 分 为 多 种 情况 , 单纯 利用 词 
语 分 割 以 及 规则 的 方法 也 达 不 到 理想 的 效果 。 


表 2 基于 CRFs 的 序列 标注 算法 特征 
特征 描述 
字 类 型 包括 汉字 、 数 字 、 字 母 、 标 点 符号 、 大 写 的 数字 。 
”以 及 字 在 标题 中 的 相对 位 置 的 数值 表示 ,大 小 为 
” 0 到 1 之 间 。 
将 字 所 在 标题 进行 分 词 后 ， 此 字 所 归属 的 词 的 词 
性 ， 及 此 字 所 在 词语 的 位 置信 息 : 字 在 词语 的 开 
头 、 中 间或 者 结尾 。 
训练 语 料 中 的 高 频 词 构成 的 词典 中 的 词 , 在 特征 字 
村 征 所 在 句子 中 是 否 出 现 。 


与 此 字 的 距离 (如 “ 谈 ”,“ 轮 ”,“ 基 于 ”等 词 )。 


此 字 所 在 标题 名 的 最 后 4 个 字 。 


unigram ”此 字 位 置 为 0， 对 应 包括 (-2, -1, 0, 1, 2) 等 5 个 位 置 
特征 ”的 字 的 词组 。 

bigram ”此 字 位 置 为 0， 对 应 包括 (-2*-1, -1*0, 0*1, 1*2) 等 4 
特征 。 个 组 合 的 词组 。 


采用 基于 主动 学 习 的 方法 进行 实验 , 基于 CRFs 
模型 对 已 标注 数据 建 模 ,进而 对 未 标注 数据 进行 预测 ， 
从 大 部 分 未 标注 集合 中 挑选 尽量 少 的 部 分 数据 进行 人 
工 标注 , 并 将 标注 后 的 结果 再 加 入 ,进行 迭代 重新 建 
模 ,最 大 限度 地 提高 准确 率 。 

在 用 每 次 训练 生成 的 CRFs 模型 对 新 数据 进行 标 
注 时 , 判别 阶段 是 比较 各 字 归 属于 不 同类 别 的 概率 ， 
并 选取 最 大 概率 的 类 别 为 标注 结果 ， 而 最 大 概率 类 别 


3.2 ”基于 条 件 随 机 场 的 序列 标注 算法 

条 件 随机 场 (Conditional Random Fields，CRFs) 是 
由 Lafferty 等 5 于 2001 年 提出 的 一 种 用 来 标注 和 划分 
序列 结构 数据 的 概率 化 结构 模型 , 在 自然 语言 处 理 领 
域 得 到 了 广泛 的 应 用 。 

采用 的 基础 标注 算法 为 基于 条 件 随机 场 呈 的 序列 
标注 算法 ， 其 中 对 准确 率 影响 最 大 因素 仍然 是 关于 特 
征 选 取 。 实 验 的 基本 特征 单位 是 “ 字 ”。 根 据 实验 为 每 
个 特征 字 添 加 了 特征 , 如 表 2 所 示 。 
3.3 ”基于 主动 学 习 的 研究 对 象 生 成 标 引 体系 

主动 学 习 的 过 程 为 : 在 已 经 标 好 类 标的 数据 集 
K( 初 始 时 可 能 为 空 ) 和 还 没有 标记 的 数据 集 U 中 , 通 
过 集合 的 信息 , 找 出 一 个 U 的 子 集 C, 提出 标注 请 
求 , 待 专家 将 数据 集 C 标注 完成 后 加 入 到 K 集合 中 ， 
进行 下 一 次 迭代 。 


与 次 大 概率 类 别 的 概率 差 值 , 本 质 上 是 可 用 于 评判 每 
次 模型 分 类 置信 度 的 依据 。 本 文选 择 要 新 标 引 的 数据 
的 方式 即 是 基于 分 析 此 概率 差 值 。 

(1) 概率 差 值 的 分 析 

为 了 计算 最 优 的 阔 值 , 将 数据 分 成 三 组 : 训练 数 
据 a, 用 作 训 练 模型 ; 添加 数据 b, 未 知 数据 筛选 ， 添 
加 到 训练 集 ; 测试 数据 c， 比 较 前 后 实验 的 准确 率 差 
值 .通过 对 a 建 模 对 c 预测 ， 准 确 率 为 PB , 并 在 b 中 选 
择 ss[0,6i] 的 数据 添加 到 a 中 , 重新 建 模 并 对 ec 预测 ， 
准确 率 为 已 ， 观 察 两 次 准确 率 之 差 AP = P, -Pi , 根据 
AP 的 大 小 差 值 判断 该 8 区 间 数 据 是 否 对 模型 有 效 。 为 
了 节省 人 工 标 注 成 本 , 须 尽 可 能 减少 人 工 标 注 的 成 本 ， 
即 筛选 出 进行 人 工 标注 的 数据 量 N 应 尽 可 能 少 。 引入 
如 下 判别 公式 : 


AP 
R = arg max 一 一 1 
Ba (1) 
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其 中 ，g = 标签 的 概率 最 大 值 - 次 大 值 ，AP = 
P; -了 =f(s) 表示 前 后 两 次 模型 准确 率 的 差 值 ， 
N= g(s) 为 添加 的 人 工 标 记 的 数据 的 数量 。 为 参数 
大 小 。 当 AP 越 大 ，N 越 小 时 , 越 能 添加 尽量 少 的 数据 
量 , 得 到 最 好 的 实验 效果 。 即 当 R 值 越 大 时 ,这 时 的 s 
取得 最 优 值 。 

(2) 主动 学 习 的 迭代 训练 过 程 

迭代 训练 的 过 程 为 : 通过 阔 值 估计 的 s 值 对 未 知 
数据 进行 筛选 ， 并 进行 人 工 标注 ,添加 到 训练 数据 中 
重新 进行 模型 参数 估计 。 通 过 多 次 迭代 该 过 程 , 使 得 
在 数据 量 和 准确 率 之 间 达 到 平衡 , 即 R 值 达 到 最 大 
值 。 基 于 主动 学 习 的 研究 对 象 生 成 标 引 体系 的 流程 如 
图 1 所 示 : 


图 1 基于 主动 学 习 的 研究 对 象 生成 标 引 体系 流程 


利用 原始 训练 数据 ， 进行 模型 参数 估计 ,并 利用 测 
试 数据 对 准确 率 进行 评估 , 通过 主动 学 习 的 迭代 训练 
的 方法 , 用 已 建立 的 模型 对 未 知 数据 进行 筛选 ,采用 阔 
值 估计 实验 得 到 阔 值 区 间 ， 挑 选 数 据 添加 到 训练 集 并 
重新 进行 参数 估计 , 对 新 的 模型 进行 测试 。 经 过 多 次 迭 
代 , 使 得 模型 在 准确 率 和 训练 效率 上 达到 最 优 值 。 


4 实 验 


4.1 实验 数据 

实验 数据 来 源 于 中 国 知 网 的 医学 类 学 术 论文 ， 人 
工 对 论文 标题 进行 研究 对 象 的 标注 。 选 取 18 449 条 作 
为 最 初 的 训练 数据 。 
4.2 ”实验 设置 及 结果 分 析 

(1) 国 值 估计 实验 

前 后 两 次 实验 准确 率 差 值 如 图 2 所 示 : 
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0 0.2 0.8 1.0 


0.4 0.6 
z 闷 值 (<) 
图 2 前 后 两 次 实验 准确 率 差 值 


训练 数据 的 变化 如 图 3 所 示 : 


0 0.2 0.4 0.6 0.8 1.0 
8 阔 值 (一 ) 


图 3 训练 数据 的 变化 
其 中 , R 的 变化 趋势 如 图 4 所 示 


图 4 及 的 变化 趋势 
通过 实验 结果 可 看 出 , 准确 率 差 值 和 添加 数据 量 


的 变化 规律 。s 在 [0, 0.3] 之 间 随 着 闵 值 的 增 大 ,添加 标 
记 的 数据 量 越 来 越 多 ,模型 准确 率 呈 上 升 趋势 ,表明 
这 个 区 间 数 据 对 于 模型 的 补充 作用 较 大 。 当 阔 值 在 
[0.3，0.8] 时 准确 率 的 增 速 变 缓 ; 在 [0.8，1] 这 上 段 时 间 准 
确 率 差 值 波动 起 伏 , 表明 该 区 间 数 据 对 于 模型 的 干扰 
作用 较 大 。 

随 着 阔 值 的 不 断 增 大 ,数据 量 也 是 呈 线 性 增长 的 
趋势 。 通 过 计算 得 出 s 在 [0，0.3] 时 模型 准确 率 提升 了 
1.7， 而 s 在 [0.3，0.8] 时 ;准确 率 提升 仅 1.3， 且 准确 率 波 
动 明 显 , 存在 很 多 不 确定 性 。 数 据 量 随 着 阔 值 的 增 大 
是 呈 线 性 增长 的 ， 当 &g 在 [0，0.3] 时 添加 的 数据 量 和 & 


在 [0.3, 0.8] 时 的 比值 约 为 1 : 3。 实 验 目 的 是 为 了 尽 可 
能 少 添加 人 工 标 注 的 数量 , 降低 人 工 成 本 , 最 大 限度 
地 提高 模型 准确 率 。 可 看 出 8 在 [0，0.3] 时 的 数据 对 于 
模型 的 补充 作用 较 大 , 而 且 和 需要 人 工 标 注 的 数据 量 也 
最 小 。 由 准确 率 变化 趋势 可 看 出 8 在 [0,0.3] 区 间 模 型 准 
确 率 有 大 幅度 提高 ,而 要 人 工 标注 的 数据 也 相对 较 少 ， 
故 选择 这 个 区 间 是 合理 的 。 

由 图 4 可 看 出 , R 的 变化 趋势 是 = 在 [0, 0.3] 区 间 呈 
上 升 趋 势 ， 当 8 >0.3 时 , R 随 之 减 小 , 故 选择 [0, 0.3] 区 
间 能 尽量 少 地 减少 数据 量 , 最 大 限度 提高 准确 率 。 

(2) 主动 学 习 的 迭代 训练 实验 及 对 比 实验 

单 次 实验 中 , 实验 采用 基于 初始 实验 数据 进行 五 
折 交 又 验证 , 在 每 份 训练 集 上 进行 训练 得 到 CRFs 模型 ， 
并 在 对 应 的 测试 集 上 进行 评判 , 最 终 计算 平均 准确 率 。 

CRFs 算法 窗口 大 小 分 别 设置 为 2, 4, 6, 8, 10, 12, 
对 比 实验 准确 率 。 随 着 窗口 的 增 大 ,预测 准确 率 有 一 
定 程度 提升 ， 当 窗口 大 小 为 8-12 时 , 效果 提高 不 明显 ， 
训练 时 间 和 内 存 占 用 却 成 倍增 大 ,因此 本 实验 采用 最 
佳 的 窗口 大 小 6 进行 实验 .CRFs 算法 采用 L-BFGS 参 
数 估计 算法, LIL1 正规 化 系数 cl1=0 和 c2=1。 

迭代 训练 的 过 程 为 : 通过 上 述 阔 值 估 计 实 验 得 出 
的 g 阔 值 对 [0，0.3] 区 间 的 未 知 数据 进行 第 选 ,并 进行 
人 工 标 注 , 添加 到 训练 数据 中 重新 进行 参数 估计 。 通 
过 多 次 迭代 该 过 程 , 在 数据 量 和 准确 率 之 间 达 到 平衡 ， 
即 R 值 达到 最 大 值 。 基 于 本 文 提 出 的 运用 主动 学 习 的 
迭代 标 引 体系 ,对 结果 进行 统计 ， 准 确 率 的 变化 趋势 
如 图 5 所 示 : 


0.80 , 
0.78 4 一 4 


0.76] 
符 0.74 
有 还 


针 0.721 


0.70 2 
0.68 ] 
0 20000 40000 60000 80000 


数据 量 
图 5 准确 率 变 化 趋势 


在 人 工 标注 的 数据 基础 上 , 初次 模型 提取 研究 对 
象 的 准确 率 为 67.5%, 单纯 采用 CRFs 标注 方法 得 到 的 
实验 结果 , 初步 达到 一 定 的 效果 。 随 着 迭代 轮 次 的 增 
加 , 准确 率 P 在 一 定 区 间 内 呈 上 升 趋势 ,， 说明 随 着 主 


动 学 习 方 法 添加 了 特定 的 数据 ,对 原来 模型 的 盲区 产 
生 针 对 性 的 补充 , 其 训练 时 能 获取 的 数据 的 特征 空间 
出 越 来 趋 近 于 此 特征 的 完备 空间 ， 从 而 使 得 数据 的 预 
测 越 来 越 准确 。 当 数据 量 增加 到 一 定 程度 ,训练 的 特 
征 信息 越 来 越 饱 和 ,其 增长 的 速率 缓慢 。 而 在 5 次 迭 
代 后 , 研究 对 象 提取 模型 的 准确 率 已 达到 78.3%, 极 
大 提高 了 抽取 的 准确 率 。 

与 基于 隐 马 尔 可 夫 模 型 (HMM) 的 提取 方法 进行 
对 比 ， 如 图 6 所 示 : 


C= 


0.80 
0.78 
0.76 
0.74 
二 072 O° 
SS 
起 0.70 
0.68 一 一 基于 HMM 方 法 
0.66 一 一 基于 主动 学 习 的 CRF 
0.64 序列 标注 方法 
0.62 T T : 
0 4 6 S 
迭代 次 数 


图 6 对 比 实验 结果 

基于 主动 学 习 的 CRFs 序列 标注 方法 在 每 个 数据 
段 的 准确 率 都 高 于 基于 隐 马 尔 可 夫 模 型 的 方法 , 整体 
性 能 也 明显 优 于 该 方法 。 而 且 随 着 数据 量 的 不 断 增加 ， 
基于 主动 学 习 的 CRFs 序列 标注 方法 的 准确 率 呈 明显 
上 升 趋势 。 而 HMM 模型 的 假设 前 提 在 比较 小 的 数据 
集 上 是 合适 的 , 但 实际 上 在 大 量 真 实 语 料 中 观察 序列 
更 多 是 以 一 种 多 重 的 交互 特征 形式 表现 。 由 于 实体 本 
吴 结 构 所 具有 的 复杂 性 , 利用 简单 的 特征 函数 往往 无 
法 涵盖 所 有 的 特性 ， 导致 其 具有 局 限 性 。 

结合 图 5 和 图 6 的 实验 结果 ,可 得 出 该 方法 随 着 
迭代 次 数 的 增加 ， 准 确 率 明显 提升 ,并 且 通 过 与 基于 
隐 马 尔 可 夫 模 型 及 单纯 CRFs 的 方法 进行 对 比 ,充分 
说 明 本 文 方法 的 有 效 性 。 


S 结 语 


本 文 针对 领域 科技 文献 的 元 数据 抽取 问题 ,系统 
分 析 了 研究 对 象 的 结构 特点 和 语义 特征 , 利用 条 件 随 
机 场 的 序列 标注 算法 ， 提 取出 文献 中 的 研究 对 象 ， 同 
时 提出 一 种 主动 学 习 的 研究 对 象 标 引 体系 ,， 从 未 知 数 
据 集中 筛选 有 效 数 据 ,， 使 模型 达到 最 好 的 效果 。 本 文 
方法 不 仅 能 够 减少 人 工 标注 的 成 本 ,最 大 程度 提高 机 


XIANDAI TUSHU QINGBAO JISHU 


201711.01232V1 


chinaXiv 


ChinaXiv 合 作 期 刊 


研究 文 


器 学 


习 算 法 的 运行 效率 ,同时 能 充分 利用 大 量 未 标注 


数据 ,并 使 研究 对 象 的 提取 得 到 最 优 的 性 能 提升 。 本 
文 方法 不 仅 适用 于 医学 领域 科技 文献 ,而 且 同 样 适用 


于 其 


他 领域 科技 文献 的 元 数据 抽取 问题 。 而 且 主动 学 


习 的 标 引 体系 可 用 于 指引 其 他 元 数据 抽取 问题 , 具有 
很 强 的 借鉴 意义 。 
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A Scientific Research Object Labeling System Based on Active 
Learning 


He Huixin Liu Lijuan 
(Tongfang Knowledge Network Technology Co., Ltd. (Beijing), Beijing 100192, China) 


Abstract: [Objective] This study aims to identify the research object attribute instance from the paper titles. With the 
help of limited labeled samples, we could maximumize the accuracy of research object recognition. [Methods] We first 
analyzed the grammatical features of scientific research objects based on conditional random field sequence labeling 
algorithm. Second, we recognized and extracted research objects using a small amount of samples. Finally, we 
introduced an active learning iterative labeling system based on unlabeled data to improve the research object 
recognition accuracy. [Results] The results showed that the proposed method could efficiently use the unlabeled data, 
and increase the accuracy of the research object recognition to 78.3%. [Limitations] The proposed algorithm needs to 
be further optimized to Improve its efficiency. [Conclusions] The proposed method performed well on the research 
object attributes identification, which is the foundation for further mining the knowledge system and the structure of 
Sclence and technology literature. 
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